В интернете «фейковые новости» - это распространенное явление, которое часто беспокоит общество, поскольку содержит заведомо ложную информацию. Проблема активно исследовалась с использованием обучения с учителем для автоматического обнаружения фейковых новостей. Хотя точность растет, она по-прежнему ограничивается идентификацией ложной информации через каналы на социальных платформах. Это исследование направлено на повышение надежности обнаружения фейковых новостей на платформах социальных сетей путем изучения новостей с неизвестных доменов. Особенно трудно обнаружить и предотвратить распространение информации в социальных сетях во Вьетнаме, потому что все имеют равные права на использование интернета для разных целей. Эти люди имеют доступ к нескольким платформам социальных сетей. Любой пользователь может публиковать или распространять новости через онлайн-платформы. Эти платформы не пытаются проверять пользователей, их местоположение или содержимое их новостей. В результате некоторые пользователи пытаются распространять через эти платформы фейковые новости для пропаганды против отдельного лица, общества, организации или политической партии. Мы предложили проанализировать и разработать модель распознавания фейковых новостей с использованием глубокого обучения (называемого AAFNDL). Метод выполнения работы: 1) во-первых, анализируем существующие методы, такие как представление двунаправленного кодировщика от преобразователя (BERT); 2) приступаем к построению модели для оценки; 3) подходим к применению некоторых современных методов к модели, таких как метод глубокого обучения, метод классификатора и т.д., для классификации ложной информации. Эксперименты показывают, что наш метод может улучшить результаты на 8,72% по сравнению с другими методами.
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.
В работе предлагается метод сглаживания n-граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n-грамм. Вместо дисконтирования максимальной вероятности n-грамм предлагается увеличение мощности обучающего множества на ожидаемое число n-грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.
1 - 4 из 4 результатов